Loading...
机构名称:
¥ 1.0

单一对象跟踪旨在根据不同模态引用指定的状态在视频序列中定位目标对象,包括初始边界框(Bbox),自然语言(NL)或两者(NL+Bbox)。由于不同方式之间的差距,大多数现有的轨道都是为这些参考设置的单个或部分设计而设计的,并在特定模态上过度专业化。不同,我们提出了一个称为UVLTRACK的统一跟踪器,该跟踪器可以通过相同的参数来多样地处理所有三个参考设置(Bbox,NL,NL+Bbox)。提议的UVL-Track具有多种优点。首先,我们为关节视觉和语言学习设计了一种模态统一的特征提取器,并提出了多模式的对比损失,以将视觉和语言特征对齐为统一的半偏见空间。第二,提出了一种模态自适应盒头,该盒子头完全使用目标引用,以动态地使用视频上下文,并以对比的方式区分目标,从而在不同的参考设置中实现了稳健的性能。广泛的实验结果表明,UVlTrack在七个视觉跟踪数据集,三个视觉跟踪数据集和三个视觉接地数据集上实现了承诺性能。代码和模型将在https://github.com/openspaceai/uvltrack上开源。

arxiv:2401.11228v1 [CS.CV] 2024年1月20日

arxiv:2401.11228v1 [CS.CV] 2024年1月20日PDF文件第1页

arxiv:2401.11228v1 [CS.CV] 2024年1月20日PDF文件第2页

arxiv:2401.11228v1 [CS.CV] 2024年1月20日PDF文件第3页

arxiv:2401.11228v1 [CS.CV] 2024年1月20日PDF文件第4页

arxiv:2401.11228v1 [CS.CV] 2024年1月20日PDF文件第5页

相关文件推荐